智能论文笔记

Artificial Intelligence Security Competition (AISC)

Yinpeng Dong , Peng Chen , Senyou Deng , Lianji L , Yi Sun , Hanyu Zhao , Jiaxing Li , Yunteng Tan , Xinyu Liu , Yangyi Dong

分类：人工智能 | 计算机视觉 | 机器学习

2022-12-07

The security of artificial intelligence (AI) is an important research area towards safe, reliable, and trustworthy AI systems. To accelerate the research on AI security, the Artificial Intelligence Security Competition (AISC) was organized by the Zhongguancun Laboratory, China Industrial Control Systems Cyber Emergency Response Team, Institute for Artificial Intelligence, Tsinghua University, and RealAI as part of the Zhongguancun International Frontier Technology Innovation Competition (https://www.zgc-aisc.com/en). The competition consists of three tracks, including Deepfake Security Competition, Autonomous Driving Security Competition, and Face Recognition Security Competition. This report will introduce the competition rules of these three tracks and the solutions of top-ranking teams in each track.

translated by 谷歌翻译

The Outcome of the 2022 Landslide4Sense Competition: Advanced Landslide Detection from Multi-Source Satellite Imagery

Omid Ghorbanzadeh , Yonghao Xu , Hengwei Zhao , Junjue Wang , Yanfei Zhong , Dong Zhao , Qi Zang , Shuang Wang , Fahong Zhang , Yilei Shi

分类：计算机视觉

2022-09-06

这里介绍了人工智能研究所（IARAI）组织的2022年Landslide4sense（L4S）竞赛的科学结果。竞争的目的是根据全球收集的卫星图像的大规模多个来源自动检测滑坡。 2022 L4S旨在促进有关使用卫星图像的语义分割任务的深度学习模型（DL）模型最新发展的跨学科研究。在过去的几年中，由于卷积神经网络（CNN）的发展，基于DL的模型已经达到了对图像解释的期望。本文的主要目的是介绍本次比赛中介绍的细节和表现最佳的算法。获胜的解决方案详细介绍了Swin Transformer，Segformer和U-NET等最先进的模型。还考虑了先进的机器学习技术和诸如硬采矿，自我培训和混合数据增强之类的策略。此外，我们描述了L4S基准数据集，以促进进一步的比较，并在线报告准确性评估的结果。可以在\ textIt {未来开发排行榜上访问数据，以供将来评估，\ url {https://www.iarai.ac.ac.at/landslide4sense/challenge/}，并邀请研究人员提交更多预测结果，评估准确性在他们的方法中，将它们与其他用户的方法进行比较，理想情况下，改善了本文报告的滑坡检测结果。

translated by 谷歌翻译

Federated Learning with Label Distribution Skew via Logits Calibration

Jie Zhang , Zhiqi Li , Bo Li , Jianghe Xu , Shuang Wu , Shouhong Ding , Chao Wu

分类：机器学习 | 人工智能

2022-09-01

传统的联邦优化方法的性能较差（即降低准确性），尤其是对于高度偏斜的数据。在本文中，我们调查了佛罗里达州的标签分布偏斜，在那里标签的分布各不相同。首先，我们从统计视图研究了标签分布偏斜。我们在理论上和经验上都证明了基于软马克斯跨凝结的先前方法不合适，这可能会导致本地模型非常适合少数群体和缺失的类别。此外，我们从理论上引入了一个偏离，以测量本地更新后梯度的偏差。最后，我们建议通过\ textbf {l} ogits \ textbf {c}启动）FedLc（\ textbf {fed {fed}学习，该学习根据每个类别的出现可能性。 FedLC通过添加成对标签的边距将细粒度校准的跨透镜损失应用于本地更新。联合数据集和现实世界数据集的广泛实验表明，联邦快递会导致更准确的全球模型和大大改善的性能。此外，将其他FL方法集成到我们的方法中可以进一步增强全球模型的性能。

translated by 谷歌翻译

Learning Modal-Invariant and Temporal-Memory for Video-based Visible-Infrared Person Re-Identification

Xinyu Lin , Jinxing Li , Zeyu Ma , Huafeng Li , Shuang Li , Kaixiong Xu , Guangming Lu , David Zhang

分类：计算机视觉

2022-08-04

感谢您的跨模式检索技术，通过将它们投射到一个共同的空间中，可以在24小时的监视系统中重新进行重新识别，从而实现了可见的信号（RGB-IR）重新识别（RE-ID）。但是，关于探测到探测器，几乎所有现有的基于RGB-IR的跨模式人RE-ID方法都集中在图像到图像匹配上，而视频对视频匹配包含更丰富的空间 - 和时间信息仍未探索。在本文中，我们主要研究基于视频的跨模式人Re-ID方法。为了实现这项任务，构建了一个基于视频的RGB-IR数据集，其中927个有效身份，具有463,259帧和21,863个曲目，由12个RGB/IR摄像机捕获。基于我们构造的数据集，我们证明，随着曲目中帧的增加，该性能确实达到了更多的增强功能，证明了视频对视频匹配在RGB-IR RE-ID中的重要性。此外，进一步提出了一种新颖的方法，不仅将两种模态投射到模态不变子空间，而且还提取了运动不变的时间记忆。多亏了这两种策略，我们基于视频的跨模式人重新ID取得了更好的结果。代码和数据集以：https：//github.com/vcmproject233/mitml发布。

translated by 谷歌翻译

Stochastic Gradient Descent without Full Data Shuffle

Lijie Xu , Shuang Qiu , Binhang Yuan , Jiawei Jiang , Cedric Renggli , Shaoduo Gan , Kaan Kara , Guoliang Li , Ji Liu , Wentao Wu

分类：机器学习

2022-06-12

随机梯度下降（SGD）是现代机器学习（ML）系统的基石。尽管具有其计算效率，但SGD仍需要随机数据访问，这些数据访问在依赖块可调地理的二级存储的系统中实现效率低下，例如HDD和SSD，例如TensorFlow/Pytorch和DB ML系统，而不是大文件。为了解决这种阻抗不匹配，已经提出了各种数据改组策略，以平衡SGD的收敛速率（有利于随机性）及其I/O性能（有利于顺序访问）。在本文中，我们首先对现有数据改组策略进行系统的实证研究，该研究表明，所有现有策略都有改进的空间 - 它们都在I/O性能或融合率方面受苦。考虑到这一点，我们提出了一种简单但新颖的分层数据改组策略Corgipile。与现有的策略相比，Corgipile避免了完整的数据洗牌，同时保持SGD的可比收敛速度，就好像执行了完整的混音一样。我们对Corgipile的融合行为提供了非平凡的理论分析。我们通过在新的CorgipileDataSet API中设计新的平行/分布式洗牌操作员来进一步将Corgipile整合到Pytorch中。我们还通过介绍具有优化的三个新的物理运营商，将Corgipile集成到PostgreSQL中。我们的实验结果表明，Corgipile可以与全面的SGD达到可比的收敛速率，以实现深度学习和广义线性模型。对于ImageNet数据集的深度学习模型，Corgipile比带有完整数据洗牌的Pytorch快1.5倍。对于具有线性模型的INDB ML，在HDD和SSD上，Corgipile的Corgipile比两个最先进的IN-DB ML系统（Apache Madlib和Bismarck）快1.6 x-12.8倍。

translated by 谷歌翻译

Copy Motion From One to Another: Fake Motion Video Generation

Zhenguang Liu , Sifan Wu , Chejian Xu , Xiang Wang , Lei Zhu , Shuang Wu , Fuli Feng

分类：计算机视觉 | 人工智能

2022-05-03

人工智能的一种令人信服的应用是生成一个目标人执行任意所需运动的视频（来自来源的人）。虽然最新的方法能够合成一个视频，展示了类似的宽带运动细节，但它们通常缺乏纹理细节。相关的表现出现为扭曲的脸，脚和手，这种缺陷是人类观察者对人的非常敏感的。此外，当前的方法通常采用L2损失的GAN来评估生成的视频的真实性，固有地需要大量的培训样品来学习纹理细节以进行足够的视频生成。在这项工作中，我们从三个方面应对这些挑战：1）我们将每个视频框架分解为前景（人）和背景，重点是生成前景，以减少网络输出的基本维度。 2）我们提出了一种理论上动机的Gromov-Wasserstein损失，可促进从姿势到前景图像学习地图。 3）为了增强纹理细节，我们用几何指导编码面部特征，并使用当地甘斯来完善面部，脚和手。广泛的实验表明，我们的方法能够生成现实的目标人视频，忠实地从源人员那里复制复杂的动作。我们的代码和数据集在https://github.com/sifann/fakemotion上发布

translated by 谷歌翻译

VLP: A Survey on Vision-Language Pre-training

Feilong Chen , Duzhen Zhang , Minglun Han , Xiuyi Chen , Jing Shi , Shuang Xu , Bo Xu

分类：计算机视觉 | 自然语言处理

2022-02-18

在过去的几年中，训练前模型的出现将单峰领域（例如计算机视觉（CV）和自然语言处理（NLP））带到了一个新时代。实质性的作品表明它们对下游大学任务有益，并避免从头开始训练新的模型。那么，此类预训练的模型可以应用于多模式任务吗？研究人员探索了这个问题并取得了重大进展。本文调查了视觉预训练（VLP）的最新进展和新的前沿，包括图像文本和视频文本预训练。为了使读者更好地掌握VLP，我们首先从五个方面回顾了其最新进展：功能提取，模型体系结构，培训预训练目标，预训练数据集和下游任务。然后，我们详细概述了特定的VLP模型。最后，我们讨论了VLP中的新边界。据我们所知，这是对VLP的首次调查。我们希望这项调查能够阐明VLP领域的未来研究。

translated by 谷歌翻译

REFUGE2 Challenge: A Treasure Trove for Multi-Dimension Analysis and Evaluation in Glaucoma Screening

Huihui Fang , Fei Li , Junde Wu , Huazhu Fu , Xu Sun , Jaemin Son , Shuang Yu , Menglu Zhang , Chenglang Yuan , Cheng Bian

分类：计算机视觉

2022-02-18

With the rapid development of artificial intelligence (AI) in medical image processing, deep learning in color fundus photography (CFP) analysis is also evolving. Although there are some open-source, labeled datasets of CFPs in the ophthalmology community, large-scale datasets for screening only have labels of disease categories, and datasets with annotations of fundus structures are usually small in size. In addition, labeling standards are not uniform across datasets, and there is no clear information on the acquisition device. Here we release a multi-annotation, multi-quality, and multi-device color fundus image dataset for glaucoma analysis on an original challenge -- Retinal Fundus Glaucoma Challenge 2nd Edition (REFUGE2). The REFUGE2 dataset contains 2000 color fundus images with annotations of glaucoma classification, optic disc/cup segmentation, as well as fovea localization. Meanwhile, the REFUGE2 challenge sets three sub-tasks of automatic glaucoma diagnosis and fundus structure analysis and provides an online evaluation framework. Based on the characteristics of multi-device and multi-quality data, some methods with strong generalizations are provided in the challenge to make the predictions more robust. This shows that REFUGE2 brings attention to the characteristics of real-world multi-domain data, bridging the gap between scientific research and clinical application.

translated by 谷歌翻译

A Practical Data-Free Approach to One-shot Federated Learning with Heterogeneity

Jie Zhang , Chen Chen , Bo Li , Lingjuan Lyu , Shuang Wu , Jianghe Xu , Shouhong Ding , Chao Wu

分类：机器学习 | 计算机视觉

2021-12-23

一滴联合学习（FL）最近被出现为有希望的方法，允许中央服务器在单个通信中学习模型。尽管通信成本低，但现有的一次性的单次方法大多是不切实际或面临的固有限制，例如，需要公共数据集，客户的型号是同质的，需要上传其他数据/型号信息。为了克服这些问题，我们提出了一种更实用的无数据方法，名为FEDSYN的一枪框架，具有异质性。我们的Fedsyn通过数据生成阶段和模型蒸馏阶段列出全球模型。据我们所知，FEDSYN是由于以下优点，FEDSYN可以实际应用于各种实际应用程序的方法：（1）FEDSYN不需要在客户端之间传输的其他信息（模型参数除外）服务器; （2）FEDSYN不需要任何用于培训的辅助数据集; （3）FEDSYN是第一个考虑FL中的模型和统计异质性，即客户的数据是非IID，不同的客户端可能具有不同的模型架构。关于各种现实世界数据集的实验表明了我们的Fedsyn的优越性。例如，当数据是非IID时，FEDSYN在CIFAR10数据集中优于CEFAR10数据集的最佳基线方法FED-ADI的最佳基准方法。

translated by 谷歌翻译

Incentive Compatible Pareto Alignment for Multi-Source Large Graphs

Jian Liang , Fangrui Lv , Di Liu , Zehui Dai , Xu Tian , Shuang Li , Fei Wang , Han Li

分类： (统计)机器学习 | 机器学习

2021-12-06

在本文中，我们专注于在多源大规模数据上学习有效的实体匹配模型。对于真实应用，我们放松源代码分布/空间或实体身份的典型假设，并提出了一个轻松的多源大规模实体匹配（RMLE）问题。问题的挑战包括1）如何对准源之间的大规模实体来共享信息和2）如何从联合学习多源数据中减轻负转移。更糟糕的是，一个实际问题是两个挑战之间的纠缠。具体地，不正确的对准可能增加负转移;虽然减轻一个来源的负面转移可能导致其他来源的知名度较差，然后降低对准精度。为了处理纠缠挑战，指出关键是基于Pareto正面优化首先优化信息共享，通过表示信息共享显着影响帕累托前部，描绘了负转移的下限。因此，我们提出了一种激励兼容的帕累托对准（ICPA）方法，首先基于Pareto正面优化优化跨源对准，然后减轻在优化的对准上约束的负转移。这种机制呈现每个来源可以根据其真实的偏好来学习，而无需担心恶化的其他来源的表示。具体地，帕累托前线优化促使最小化负转移的下限，这优化了是否对齐。提供了四个大型数据集的综合实证评估结果，以证明ICPA的有效性和优越性。搜索广告平台的在线A / B测试结果还展示了ICPA在生产环境中的有效性。

translated by 谷歌翻译